中文單詞之韻律模式研究 (A Study on Prosodic Modeling for Isolated Mandarin Words) [In Chinese]
نویسندگان
چکیده
In this paper, syllable-based prosody modelings of pitch contour and syllable duration for isolated Mandarin words are proposed. In the syllable pitch contour model, three main affecting factors of tone, syllable position in word, and inter-syllable coarticulation are considered. These three affecting factors are assumed to be independent and additive. Similarly, in the syllable duration model, four affecting factors of tone, syllable position in word, base-syllable, and inter-syllable coarticulation are considered. We also assume that these affecting factors are independent and additive. A large single female-speaker speech database containing 107,936 words was used to evaluate the performance of the proposed methods. After well-training, the decision tree method was used to analyze the 411 affecting factors of base-syllable and to explore the relationship between inter-syllable pause duration and the nearby linguistic features. Experimental results showed that all these affecting factors conformed to our knowledge about Mandarin prosody. 關鍵詞:韻律模式,基頻軌跡,影響因素,連音
منابع مشابه
使用韻律階層及大量詞彙的中文文轉音系統 (A Mandarin Text-to-Speech System Using Prosodic Hierarchy and a Large Number of Words) [In Chinese]
余明興、張唐瑜、許燦煌、蔡育和 國立中興大學資訊科學所 [email protected], [email protected], [email protected], [email protected] 摘要 本論文實作了一個中文的文轉音系統(Test-to-Speech)系統,它使用大量的詞彙來做為合成單 元(Synthesis units),並且配上適當的韻律階層。韻律階層可以使語意更加清晰,也可以幫助選取 適當的合成單元。因此本篇論文主要包含兩個重點:韻律階層的求取和以大量詞彙作為合成單元 的架構,在韻律階層的求取上,我們實驗了利用剖析器為基礎的方法以及著名的統計式方法 -CART(Classification And Regression Trees)來進行求取。我們使用大量詞彙來當成我們的合成單 元,可以免去許多語音處理不易...
متن کامل大規模詞彙語意關係自動標示之初步研究: 以中文詞網(Chinese Wordnet)為例 (A Preliminary Study on Large-scale Automatic Labeling of Lexical Semantic Relations: A Case study of Chinese Wordnet) [In Chinese]
近年來, 以知識資源為本的自然處理技術已成為一種重要的研究取向。 對於各種詞彙語意資源之建構, 包括電子辭典 (Lexicon)、 同義詞詞林 (Thesaurus)、 詞彙網路 (WordNet), 甚至知識本體 (ontologies), 已成為一個不可 抵擋的趨勢。 其中, 詞彙網路是在計算語言學相關領域中, 目前最為普遍利 用之一項詞彙語意資源。 然而, 詞彙網路之建構是一項耗時費力之基礎工程。 對於世界上許多使 用頻度不高的語言而言, 更是一項艱鉅之任務。 本文提出一個借力於普林斯 頓英語詞網 (Princeton WordNet) 與歐語詞網 (EuroWordNet) 之 bootstrapping 方法, 應用在正在發展的中文詞網詞彙語意關係之自動標記工作上。 實 驗的結果與初步評估證明, 此法對於詞網建構是一個相當可行的方式。
متن کامل主題語言模型於大詞彙連續語音辨識之研究 (On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition) [In Chinese]
本論文研究使用主題資訊之語言模型(Language Model)。當語言模型用於大詞彙連續語 音辨識時,其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能 性。傳統的 N 連(N-gram)語言模型容易受限於模型參數過多的問題,僅能用來擷取短距 離的詞彙接連資訊,並不能考慮完整的歷史詞序列之語意資訊。因此,近十幾年來許多 研究學者陸續提出各式主題模型(Topic Model),包括討論文件與詞之關係的機率式潛藏 語意分析(Probabilistic Latent Semantic Analysis, PLSA)和潛藏狄利克里分配(Latent Dirichlet Allocation, LDA),以及討論詞虛擬文件與詞關係的詞主題模型(Word Topic Model, WTM)。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者 詞虛擬文件與詞之間的關係...
متن کامل多語聲學單位分類之最佳化研究 (The Study of Acoustic Model Clustering in Multilingual Speech Recognition) [In Chinese]
由於全球化的形成,人與人之間的溝通不再限於同一種語言,因此多語的語音辨識也變 的格外的重要。如何有效整合多語的聲學模型是一個關鍵議題,因為一組好的多語聲學 單位將影響辨識結果。本論文提出了一套整合專家背景知識與實際語音分析的方法,來 產生一組新的聲學單位,並且對這組聲學單位的數目,使用差分貝式資訊法則來做最佳 的處理。從訓練好的隱藏式馬可夫聲學模型中,計算其單位間的相似度矩陣,之後透過 語音學和音韻學的知識,限定了各個聲學單位能群化的上限,根據不同限定的群化上 限,使用聚合階層式分群法,來建立不同的結構樹。之後,利用差分貝式資訊法則,將 每個結構樹中發音相近的聲學單位做合併,當差分貝式資訊法則的值小於零的時候,就 停止合併,而新合併成一群的聲學單位則為新的聲學單。我們將用 ForSDAT01 華台雙語 語料庫來實驗評量,而實驗結果顯示,本論文所提出的新方法比只用專家知識所定義的 聲學...
متن کامل語料庫導向之方位短句於固定框架的共現概念統計分析 (A Corpus-driven Pattern Analysis in Locative Phrases: A Statistical Comparison of Co-appearing Concepts in Fixed Frames) [In Chinese]
中文的方位詞組主要可以前飾詞(以、之)與後綴詞(邊、面、頭),結合明確的方向指引 (如:前後、上下、左右、裡外等)組合而成。這樣的組成在實際使用上,卻會有避免使 用或不存在的組合邏輯,同時這樣的現象亦發生在方位短語構成上。本研究試使用計算 統計方法,分析在 Sketch Engine 中取得的方位名詞組的概念合成模式。在詞彙概念方 面,我們使用具知識層級架構的中文同義詞詞林[1]進行將詞彙的概念探索,並計算方 位短句裡所包含的知識概念組成模式,最後試從統計方法上尋得詮釋概念與方位詞組組 合模式的實證資訊。在本研究之中,我們使用了資訊度量方法中的互斥資訊(Point-wise Mutual Information, PMI)進行統計分析兩個詞組概念間的相關性,並使用多變數互斥資 訊 (Multivariate Mutual Information, MMI)[2]進行三個概念間的相關分...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2007